rl配方

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

核心发现：单阶段训练 + 固定超参数 = SOTA 性能 + 省一半算力意外之喜：训练曲线平滑得像教科书，4000 步没遇到任何 "典型问题"关键启示：充分 scale 的简单 baseline，可能比我们想象的强大得多